推理加速 - 智狐AI导航

Torch

Torch-MLU 是一个开源的 PyTorch 扩展插件，支持开发者将寒武纪 MLU 系列智能加速卡作为 PyTorch 的加速后端。它实现了对 PyTorch 的原生支持，使开发者能够无缝地将基于 GPU 的深度学习模型迁移到 MLU 硬件上，显著提高模型的训练和推理效率。此外，Torch-MLU 还支持自动混合精度训练，通过优化计算图等技术，进一步提升了模型的执行效率。

AI项目与工具 2025年06月12日 13 点赞 0 评论 482 浏览

LayerSkip

LayerSkip 是一种针对大型语言模型推理优化的技术，通过层 dropout 和早期退出损失机制，实现从早期层的精准退出，降低计算成本并提高解码效率。该方法结合自我推测解码技术，支持模型在早期层生成预测并通过后续层验证修正，广泛适用于文档摘要、编程任务、语义解析等自然语言处理任务，同时确保高精度与低延迟。

AI项目与工具 2025年06月12日 72 点赞 0 评论 414 浏览

SmoothCache

SmoothCache是一种针对Diffusion Transformers（DiT）模型的推理加速技术，通过分析层输出的相似性实现自适应缓存和特征重用，有效减少计算成本并提升生成效率。该技术具有模型无关性、跨模态适用性和易于集成的特点，支持图像、视频、音频及3D模型生成，并在多种应用场景中展现出卓越的性能表现。

AI项目与工具 2025年06月12日 52 点赞 0 评论 765 浏览

Delta

Delta-CoMe是一种由清华大学NLP实验室牵头研发的增量压缩算法，它通过低秩分解与混合精度量化技术，显著减少了大型语言模型的存储和内存需求，同时保持了模型性能几乎无损。该工具支持多任务处理、推理加速，并广泛适用于云计算、边缘计算及学术研究等领域，特别擅长应对数学、代码和多模态任务。

AI项目与工具 2025年06月12日 58 点赞 0 评论 422 浏览

SVDQuant

SVDQuant是一种由MIT研究团队开发的后训练量化技术，专注于通过4位量化减少扩散模型的内存占用和推理延迟。它利用低秩分支技术吸收量化异常值，支持DiT和UNet架构，并能无缝集成LoRAs。SVDQuant适用于移动设备、个人电脑、云计算平台及低功耗设备，可大幅提升图像生成和处理效率。

AI项目与工具 2025年06月12日 76 点赞 0 评论 650 浏览

Megrez

Megrez-3B-Omni是一款具备全模态理解能力的开源模型，支持图像、音频和文本的综合处理，具备强大的推理效率和多模态交互功能。它能够在多个权威测试集中展现卓越性能，尤其擅长场景理解、OCR识别及语言生成等任务，同时通过智能WebSearch调用增强问题解答能力，适用于个人助理、智能家居、车载系统等多种应用场景。

AI项目与工具 2025年06月12日 25 点赞 0 评论 788 浏览

KTransformers是一款由清华大学KVCache.AI团队与趋境科技联合开发的开源工具，用于提升大语言模型的推理性能并降低硬件门槛。它支持在24GB显卡上运行671B参数模型，利用MoE架构和异构计算策略实现高效推理，预处理速度达286 tokens/s，推理速度达14 tokens/s。项目提供灵活的模板框架，兼容多种模型，并通过量化和优化技术减少存储需求，适合个人、企业及研究场景使用。

AI项目与工具 2025年06月12日 21 点赞 0 评论 640 浏览

欧派算力云

欧派算力云是一家提供AI算力服务的平台，主要功能包括大模型API接口、GPU容器实例和Serverless服务。其核心技术涵盖分布式算力网络与自研推理加速引擎，显著提升模型推理性能并降低成本。平台支持多模态模型调用，适用于AI推理、训练、云渲染及元宇宙等场景，提供灵活计费与自动化管理功能，助力企业高效部署AI应用。

AI项目与工具 2025年06月11日 97 点赞 0 评论 413 浏览

推理加速

首页

推理加速

列表

默认

浏览次数

发布日期